智能论文笔记

Visual Speech-Aware Perceptual 3D Facial Expression Reconstruction from Videos

Panagiotis P. Filntisis , George Retsinas , Foivos Paraperas-Papantoniou , Athanasios Katsamanis , Anastasios Roussos , Petros Maragos

分类：计算机视觉

2022-07-22

由于深度学习的出现，图像数据的最新技术对单眼3D面对重建的重建取得了令人印象深刻的进步。但是，它主要集中于来自单个RGB图像的输入，忽略以下重要因素：a）如今，感兴趣的绝大多数面部图像数据不是来自单个图像，而是来自包含丰富动态信息的视频。。 b）此外，这些视频通常以某种形式的口头交流捕捉个人（公众对话，电视会议，视听人类计算机的互动，访谈，电影中的独白/对话等）。当在此类视频中应用现有的3D面部重建方法时，重建口腔区域的形状和运动中的伪影通常很严重，因为它们与语音音频不太匹配。为了克服上述局限性，我们提出了3D口表达的视觉语音感知重建的第一种方法。我们通过提出“口语”损失来做到这一点，该损失指导拟合过程，从而使3D重建的说话头的感知与原始录像相似。我们证明，有趣的是，与传统的具有里程碑意义的损失，甚至直接3D监督相比，口头损失更适合3D重建嘴运动。此外，设计的方法不依赖于任何文本转录或相应的音频，因此非常适合在未标记的数据集中培训。我们通过对三个大规模数据集的详尽客观评估以及通过两种基于网络的用户研究进行主观评估来验证方法的效率。

translated by 谷歌翻译

我们开发了BenchPress，这是第一个用于编译器的ML基准生成器，它是在源代码的功能空间表示中可检测的。卧推通过在空序列或现有序列的任何部分中添加新代码，通过共同观察其左和右下文，从而综合编译函数，从而达到出色的汇编速率。卧推操纵基准的生成迈向了所需的目标特征，这对于最先进的合成器（或实际上人类）不可能达到。与（a）clgen-最先进的ML合成器，（b）Clsmith Fuzzer，（c）Srciror Mutator或（d）人写代码相比来自Github。 Benchpress是第一个通过主动学习搜索功能空间的生成器，以生成可以改善下游任务的基准。我们展示了Grewe's等人如何使用台式。与其他技术相比，CPU与GPU启发式模型在台式基准测试中进行训练时可以获得更高的加速。卧推是一个强大的代码生成器：其生成的样品以86％的速度编译，而Clgen的2.33％则以86％的速度编译。从一个空的固定输入开始，台式比CLGEN产生的10倍，可汇编的OpenCL基准测试，这些基准比Clgen更大，并且更具多样性。

translated by 谷歌翻译

自我监督的学习（SSL）已成为无需人类注释而产生不变表示的流行方法。但是，通过在输入数据上利用先前的在线转换功能来实现所需的不变表示。结果，每个SSL框架都是针对特定数据类型（例如，视觉数据）定制的，如果将其用于其他数据集类型，则需要进行进一步的修改。另一方面，是一个通用且广泛适用的框架的自动编码器（AE），主要集中于缩小尺寸，不适合学习不变表示。本文提出了一个基于阻止退化解决方案的受限自我标签分配过程的通用SSL框架。具体而言，先前的转换函数被用无监督的对抗训练的训练过程得出，以实现不变表示。通过自我转化机制，可以从相同的输入数据生成成对的增强实例。最后，基于对比度学习的培训目标是通过利用自我标签分配和自我转化机制来设计的。尽管自我转化过程非常通用，但拟议的培训策略的表现优于基于AE结构的大多数最先进的表示方法。为了验证我们的方法的性能，我们对四种类型的数据进行实验，即视觉，音频，文本和质谱数据，并用四个定量指标进行比较。我们的比较结果表明，所提出的方法证明了鲁棒性并成功识别数据集中的模式。

translated by 谷歌翻译

在本文中，我们介绍了一种新颖的深入学习方法，用于“野外”视频中演员的情绪状态的光学逼真操纵。所提出的方法基于输入场景中的演员的参数3D面表示，其提供来自头部姿势和面部表达的面部身份的可靠性解剖。然后，它使用新的深度域翻译框架，以符合他们的动态，以一致而合理的方式改变面部表情。最后，改变改变的面部表情用于基于特别设计的神经面渲染器光实际地操纵输入场景中的面部区域。据我们所知，我们的方法是第一个能够通过唯一用作操纵情绪的语义标记来控制演员的面部表情，同时保持与语音相关的唇部运动。我们进行广泛的定性和定量评估和比较，展示了我们的方法的有效性以及我们获得的特别有希望的结果。我们的方法为神经渲染技术的有用应用开辟了一种新的可能性，从电影后生产和视频游戏到照片逼真的情感化身。

translated by 谷歌翻译